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摘要 : [目的 /意义 ] 受 高 校 间 信 息 交 流 方式 和 频率 的 限制 , 加 之 疫情 的 影响 ， 


高 校 图 书馆 之 间 无 法 全 面 快捷 的 了 解 到 同行 间 的 新 闻 资 讯 及 资源 动态 等 信 


中 (以 下 简称 资讯 动态 ) 。[ 方 法 /过 程 ] 分 析 统 计 了 国内 C9 高 校 的 图 书馆 门 


户 网 站 页 面 结构 , 编写 热 插 拔 式 的 网 络 息 虫 抓 取 资讯 动态 相关 页 面 内 容 , 同 
时 避免 对 对 方 网 络 设备 和 流量 造成 压力 和 影响 , 并 对 抓 取 到 的 文本 内 容 进 行 


APE, 取出 关键 词 并 绘制 词 云 图 ,。 [结果 /结论 | 以 神道 开源 框架 为 基础 ， 


构建 信息 查询 和 展示 平台 , 供 馆 领 导 及 采访 馆 员 关注 同行 资讯 动态 。 并 对 此 


应 用 场景 扩展 到 国内 外 更 多 的 高 校 进行 了 总 结 与 展望 。 


关键 词 ， 图 书馆 门户 ; 新闻 资讯 :资源 动态 ， 扑 虫 ; 插件 式 ， 关 键 词 提取 
分 类 号 : G250. 73; TP311 


”在 推动 高 校 图 书馆 现代 化 建设 的 进程 中 ,同行 业 间 的 资讯 动态 是 重要 的 参考 部 分 。 决 策 部 

门 需要 关注 其 他 高 校 图 书馆 对 公共 事件 的 响应 ， 文 献 资源 部 门 需要 关注 其 他 高 校 图 书馆 的 次 
源 采 访 动态 ， 读 者 服务 部 门 则 对 其 他 高 校 图 书馆 推出 新 型 服务 更 感 兴趣 。 而 这 些 资讯 动态 往 
往 都 会 发 布 在 高 校 图 书馆 的 图 书馆 门户 网 站 上 。 

在 实际 的 工作 过 程 中 ， 访 问 、 查 阅 、 调 研 菜 一 主题 、 区 域 的 高 校 图 书馆 门户 网 站 的 资讯 
动态 内 容 屡 见 不 鲜 [1] [2] ， 如 何 高 效 、 合 理 地 搜集 和 展示 所 需要 的 信息 是 高 校 图 书馆 关注 的 
重点 。 随 着 信息 技术 的 发 展 ， 借 助 网 络 疏 由 进行 自动 化 的 信息 采集 具有 自动 化 、 高 时 效 、 可 
持续 性 的 特点 。 张 志 勇 利用 网 络 息 虫 软件 八 爪 鱼 进 行 了 数字 图 书馆 的 元 数据 采集 工作 [3] 。 秦 
亚 红 基于 Scrapy 候 虫 框架 进行 了 新 闻 数 据 的 获取 、 分 词 [4] 。 万 傅 、 朱 里 越 构建 了 一 套 与 情 
分 析 系统 ， 帮 助 用 户 实时 分 析 和 监控 互联 网 热点 新 闻 [5] 。 张 晓 丽 基 于 新 闻 领 域 设计 和 实现 了 
一 个 智能 关键 词 提取 系统 [6] 。 北 京 大 学 图 书馆 以 国内 高 校 为 关注 目标 ， 以 C9 高 校 图 书馆 站 
户 网 站 为 探索 点 ， 建 立 插件 式 的 谍 虫 系统 ， 可 以 将 不 同 高 校 图 书馆 的 不 同 信息 内 容 ， 以 配置 
文件 的 方式 加 入 到 抓 取 队列 中 ， 且 无 需 重启 系统 。 
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1 C9 高校 图 书馆 门户 资讯 动态 页 面 分 析 


从 页 面 结构 来 看 ， 以 北京 大 学 图 书馆 门户 网 站 中 的 通知 公告 为 例 ， 进 入 通知 公告 菜单 后 ， 
是 一 个 可 翻 页 的 新 闻 列 表 展 示 页 面 ， 以 下 称 为 列表 页 ， 如 图 1。 其 中 ， 通 过 菜单 入 口 进 入 到 的 


默认 列表 页 称 为 种 子 页 。 


2021-12 


2021-12-29 庆祝 教育 部 高 校园 工 委 成 立 40 周 年 学 术 研讨 会 在 北大 举行 
2021-12-23 期 未 考试 妥 间 图 书馆 延长 部 分 阅览 宣 开 放 时 间 的 通知 
2021-12-17 《北京 大 学 专利 竞争 力 分 析 报告 (2021 年 版 ) 》 发 布 ! 
2021-12-09 图 书馆 “SSA RENE" HE 


2021-12-08 图 书馆 召开 党 委 扩 大 会 专题 学 习 党 的 十 九 局 六 中 全 会 精神 


2021-11 


2021-11-30 【新 服务 】 个 人 研修 专 座 开 放 使 用 ， 欢 迎 预 约 


2021-10 


2021-10-22 阅读 马拉松 | 第 三 届 第 一 期 : 戴 锦 华 教授 领 读 《 微 物 之 神 》 


i ' 书 翰 留 余 揭 ， 纸 间 现 风云 一 泰康 人 者 捐赠 司徒 雪 登 文献 展 ”在 北京 大 学 举行 


图 1 列表 页 
Fig. 1 List Page 


点 击 具 体 茶 个 新 闻 进 入 到 该 新 闻 内 容 详情 ， 该 页 面 以 下 称 为 详情 页 ， 


首页 / 最 新 消息 / 关于 图 书馆 逐步 恢复 正常 服务 的 通知 


i 一 -| 
关于 图 书馆 逐步 恢复 正常 服务 的 通知 
| 2022-06-07 
名 位 读者 好 : 
术 据 病 博 防 控 总 体形 势 和 工作 安排 ， 轩 书信 逐步 人 复 忆 际 互 借 国家 图 书信 借 书 、 旨 平 鱼 存 迟到 书 、 闭 架 和 库 本 图 书 现 


一 、 自 6 月 7 日 (周二 ) 起 ， 恢 复 馆 际 互 借 国家 图 书馆 借 书 服务 (请 在 本 馆 馆 际 互 借 系统 中 提交 请 求 ) 。 
二 、 自 6 月 9 日 (AM) 起 ， 恢 复 昌平 储存 绾 取 书 服 务 (图 书 请 在 馆 咸 目录 中 检索 后 进行 预约 ) ， 恢 复 昌平 期 刊 、 工 具 
三 、 自 6 月 9 日 (AW) 起 ， 恢 复 闭 架 和 库 本 图 书 现场 叫 号 提 书 服务 (西区 109) ， 库 本 不 再 继续 提供 在 架 预 约 服务 - 


图 2 详情 页 


Fig.2 Details Page 


如 图 2s 


列表 -详情 页 的 结构 适应 网 站 用 户 的 阅读 习惯 , 因此 ， 大 部 分 的 网 站 信息 展示 都 采用 的 是 
列表 -详情 页 的 页 面 结构 。 对 于 信息 采集 工作 来 讲 ， 列 表 页 中 包含 了 信息 的 标题 、 发 布 时 间 、 


详情 页 链接 、 下 一 页 链接 等 元 数据 ， 详 情 页 则 包含 了 信息 的 具体 内 容 。 


从 网 页 源 代 码 的 角度 来 看 ， 列 表 页 又 分 为 两 种 类 型 : 静态 网 页 和 动态 网 页 。 静 态 网 页 是 
指 网 页 源 代码 主要 由 固定 的 html 构成 ， 和 页 面 访问 者 所 看 到 的 页 面 结 构 一 致 ， 如 图 3。 
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v<div class="view-content"> 
<h3>2022-85</h3> 
><div class="views-row views-row-1 views-row-odd views-row-first">..</div> 


w Views-row-2 views-row-even">..</div> 
= w views-row-3 views-row-odd">..</div> 
v<div class="views-row views-row-4 views-row-even views-row-last"> 
<span class="views-field views-field-created"> 2022-05-10 </span> 
Y<span class="views-field views-field-title"> 
<a href="/portal/cn/news/8999992393"> 中 华文 明知 识 竞 赛 开赛 在 即 ， 快 来 参与 吧 ! </a> 
</span> 
</div> 
<h3>2022-04</h3> 


图 3 静态 页 面 


Fig.3 Static Page 


动态 网 页 指 页 面 源 代码 本 身 并 非 与 页 面 所 见 内 容 一 致 的 html 代码 ,而 主要 是 javascript 
代码 ， 通 过 发 送 ajax 请 求 与 后 台 交 互动 态 生成 的 页 面 ， 如 图 4. 


(a) 网 页 源 代码 (b) 网 络 请 求 
图 4 动态 页 面 


Fig. 4 Dynamic page 


从 页 面 内 容 来 看 ，C9 高 校 图 书馆 每 天 的 资讯 动态 不 会 超过 首页 范围 ， 在 此 ， 首 页 的 资讯 
动态 称 为 最 新 资讯 动态 ， 除 此 之 外 的 资讯 动态 称 为 历史 资讯 动态 。 

经 过 统计 ， 得 出 C9 高 校 图 书馆 资讯 动态 的 页 面 结构 都 为 列表 页 ， 除 复旦 大 学 图 书馆 的 历 
史 资 讯 动态 以 外 都 为 静态 页 面 ， 见 表 1。 


#1 C9 高 校 图 书馆 资讯 动态 页 面 统 计 


Table 1 Statistics on page structure of C9 university libraries 


名 称 页 面 结 ”页 面 

构 类 型 

北京 大 学 图 书馆 最 新 资 ”列表 - 静态 
讯 动态 详情 WA 
北京 大 学 图 书馆 历史 资 ” 列表- ”静态 
讯 动态 详情 = 页 面 

清华 大 学 图 书馆 最 新 资 “列表 - ”静态 
讯 动态 详情 = 页 面 

清华 大 学 图 书馆 历史 资 ” 列表 - ”静态 
讯 动态 详情 = 页 面 
哈尔滨 工业 大 学 图 书馆 JR- 静态 
最 新 资讯 动态 详情 = 页 面 
哈尔滨 工业 大 学 图 书馆 JR- 静态 
历史 资讯 动态 详情 。 页 面 
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复旦 大 学 图 书馆 最 新 资 JR- 静态 
讯 动态 详情 WA 

复旦 大 学 图 书馆 历史 资 JR- ”动态 
讯 动态 详情 ME 

上 海 交 通 大 学 图 书馆 最 “列表 - ”静态 
新 资讯 动态 详情 ME 

上 海 交 通 大 学 图 书馆 历 列表 - 动态 
史 资 讯 动态 详情 = 页 面 
南京 大 学 图 书馆 最 新 资 ”列表 - ”静态 
讯 动态 详情 = 页 面 
南京 大 学 图 书馆 历史 资 ” 列表- 静态 
讯 动态 详情 ME 

浙江 大 学 图 书馆 最 新 资 ”列表 - ”静态 
讯 动态 详情 WA 

浙江 大 学 图 书馆 历史 资 ” 列表 - RAS 
讯 动态 详情 = 页 面 

中 国 科学 技术 大 学 图 书 “列表 - 静态 
馆 最 新 资讯 动态 详情 ME 
中 国 科 学 技术 大 学 图 书 JR- 静态 
馆 历 史 资 讯 动态 详情 。 页 面 
西安 交通 大 学 图 书馆 最 “列表 - 动态 
新 资讯 动态 详情 ME 
西安 交通 大 学 图 书馆 历 IR- ”动态 
史 资 讯 动态 详情 。 页 面 


2 抓 取 策略 研究 与 代码 实现 
2.1 抓 取 策略 研究 

从 业务 需要 与 实际 情况 的 角度 来 看 ， 任 何 一 个 高 校 图 书馆 在 一 天 或 者 半天 的 时 间 内 ， 都 
不 会 发 布 超过 一 页 的 新 闻 数 量 。 因 此 ， 出 于 对 同行 资讯 动态 的 追踪 跟 进 ， 只 需要 每 天 中 午 和 
晚上 分 别 对 最 新 资讯 动态 页 做 一 次 增 量 更 新 抓 取 ， 历 史 资 讯 动态 则 只 做 一 次 性 的 抓 取 存 储 即 
可 。 

从 对 目标 站 点 的 影响 的 角度 来 看 ， 虽 然 网 络 爬 虫 作为 一 种 自动 化 工具 ， 能 够 通过 聚合 信 
息 、 提 供 链接 ， 为 数据 所 有 者 的 网 站 带 来 更 多 的 访问 量 ， 这 些 善意 、 适 量 的 数据 抓 取 行 为 ， 
符合 数据 所 有 者 开放 共享 数据 的 预期 [7]， 但 使 用 不 当 ， 则 可 能 产生 过 量 的 访问 请 求 ， 给 目标 
服务 器 造成 一 定 的 压力 [8] 。 因 此 ， 不 对 目标 门户 网 站 进行 实时 抓 取 既是 业务 需要 ， 也 是 对 被 
访问 者 的 尊重 和 保护 。 在 满足 上 述 业 务 需要 和 实际 情况 的 前 提 下 ， 每 天 两 次 抓 取 ， 每 次 抓 取 
过 程 中 ， 相 邻 两 次 请 求 之 前 随机 睡眠 1 3 秒 。 这 样 极 大 减轻 了 目标 服务 器 的 压力 ， 同 时 由 于 
不 多 的 资讯 发 布 量 ， 也 能 满足 实际 的 业务 需要 。 


2.2 抓 取 流 程 设计 

如 前 所 述 ， 每 一 个 高 校 图 书馆 门户 网 站 的 新 闻 资 讯 、 公 告 动态 都 各 有 一 个 种 子 页 ， 该 种 
子 页 也 就 是 最 新 资讯 动态 所 在 的 页 面 或 接口 ， 而 历史 资讯 动态 的 页 面 或 接口 连接 可 以 从 种 子 
页 中 获取 得 到 。 疏 虫 程序 首先 访问 种 子 页 后 ， 从 中 获取 到 资讯 动态 标题 、 发 布 日 期 、 详 情 页 
链接 等 元 数据 ， 并 访问 详情 页 链接 获取 到 内 容 详情 存储 到 数据 库 中 。 在 进行 历史 资讯 动态 抓 
取 时 ， 还 需要 从 种 子 页 获取 到 更 多 的 列表 页 链接 ， 并 进行 循环 抓 取 。 


始 
i 
¥ 1 ee 1 
o | | FSR | 
1 
| | 解析 更 多 列表 
x LA ”页 链接 
解析 元 数据 x | J | 
3 1 
访问 列表 页 | | 
依次 访问 详情 
页 链接 | 
l 
解析 资讯 动态 
内 容 
l 
保存 至 数据 库 
图 5 抓 取 流程 


Fig.5 Crawling Process 


三 2.3 静态 页 面 抓 取 及 插件 式 代 码 结 构 

= 针对 静态 页 面 ,使 用 request 库 获 取 网 页 源码 ,并 借助 etree 对 页 面 进 行 xpath 解析 ,XPath 
二 是 在 XML 文档 中 查找 信息 的 一 种 语言 , 用 于 在 XML 文档 中 通过 元 素 和 属性 进行 导航 [9] . XPath 
使 用 路 径 表 达 式 来 选取 XML 文档 中 的 节点 或 节点 集 。 

对 列表 -详情 结构 的 静态 页 面 来 说 ， 处 理 过 程 即 : 请 求 种 子 ur1、 获 取 资 讯 动态 列表 、 循 
环 解 析 每 条 资讯 动态 元 素 上 的 元 数据 、 请 求解 析 到 的 详情 页 url、 获 取 内 容 文本 。 在 这 个 过 程 
中 ， 处 理 不 同 高 校 图 书馆 的 资讯 动态 页 面 的 代码 框架 是 一 致 的， 只 是 不 同 的 高 校 图 书馆 的 资 
讯 动 态 的 元 数据 路 径 ， 即 xpath 不 同 。 因 此 ， 各 个 图 书馆 门户 网 站 的 rootUrl1、xxxXpath 等 
可 以 作为 不 同 的 配置 文件 在 运行 时 读 取 。 

为 了 实现 热 插 拔 , 避免 手动 启 停 项 目 , 则 将 每 日 两 次 抓 取 的 任务 调度 交 给 操作 系统 Crond。 
Crond 是 Linux 下 用 来 周期 地 执行 某 种 任务 或 等 竺 处理 某 些 事件 的 一 个 守护 进程 ， 和 
Windows 中 的 计划 任务 有 些 类 似 ”。 每 次 执行 任务 从 指定 的 配置 文件 存放 目录 获取 要 抓 取 的 
站 点 信息 。 每 日 12 点 、23 点 执行 一 次 任务 ，CronTab 示例 为 0 12 23 * * * sh crawl. sh, 
其 中 crawl. sh 为 任务 的 启动 脚本 ， 主 要 承担 了 扫描 配置 文件 目录 并 调用 主 程序 的 任务 。 


2.4 动态 页 面 抓 取 
动态 页 面 抓 取 一 般 有 两 种 方案 ， 一 种 是 使 用 例如 Selenium 等 演 染 引擎 ， 将 动态 页 面 演 染 
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为 静态 页 面 后 进行 处 理 。 一 种 是 分 析 页 面 数据 加 载 过 程 中 的 网 络 请 求 ， 通 过 模拟 请 求 的 方式 
从 网 站 后 台 获 取 数 据 。 如 果 是 使 用 泻 染 引擎 ， 则 将 Selenium 与 项 目 集成 之 后 ， 将 图 6 中 访问 
网 站 url 的 方式 从 requests 访问 变更 为 selenium API 访问 即 可 。 由 于 本 次 研究 聚焦 在 C9 高 
校 ， 动 态 页 面 数 量 较 少 ， 所 以 直接 采取 模拟 发 送 请 求 的 方式 进行 动态 网 页 数据 的 获取 。 

使 用 Chrome 控制 台 - 网 络 菜单 即 可 查看 网 页 在 加 载 数据 时 发 送 的 请 求 ， 在 “ 标 头 ”中 可 以 
查看 请 求 的 地 址 和 requestHeader, 在“ 载荷” 中 可 以 查看 请 求 附带 的 参数 , 在 “预览 ”和 “ 响 
应 ”里 可 以 看 到 返回 数据 的 数据 结构 。 


Oss 载荷 RS GBH BMH AA Cookie 
"党 现 
请 求 网 址 : http://www. Library. fudan.edu.cn/_wp3services/generalquery?queryobj=articles 
请 求 方法 : Post 
状态 代码 : @ 200 200 
远程 地 址 : 127.8.8.1:7898 
引荐 来 源 网 址 政策 : strict-origin-when-cross-origin 


x 标 头 载荷” ma ma ”启动 器 “时间 Cookie 
查询 字符 囊 参 数 ESERE 查看 网 址 编码 格式 的 数据 
queryObj: articles 
"表单 数据 查看 源 代码 喜 拓 网 址 编码 格式 的 数 沁 
siteld: 3 
columnid: 956 
pagelndex: 2 
rows: 14 
conditions: [] 
orders: [] 
returninfos: [{"name":"id"},{"name":"title"},{"name": “mircImgPath"},{"name":"visitcc 
{"name":"source"},{"name": "imgLogo"},{"name":"fileLogo"},{"name": "summary", "patter 


scope: 1 


图 10 请求 地 址 及 参数 
Fig. 10 Request Url and data 


x 标 头 载荷 预览 响应 启动 器 ”时间 Cookie 


v{status: 1，result:“true"，total: 937, data: [,..], lastPageNum: 13, pageCount: 67,... 
vdata: [s=] 
v@: {id: 173611, title: “2622 年 图 书馆 春季 学 期 日 常 培训 " ，mircImgPath: "", visitCount: 
fileLogo: false 
id: 173611 


imgLogo: false 
mircImgPath: "" 
phcolName: “通知 公告 历史 信息 ” 
publishorg:“ 人 员 机 构 ” 
publishTime: "2022-02-25" 
publisher: "E8" 
publisherId: 27 
siteArtId: 513552 
source: "复旦 大 学 图 书馆 ” 
summary: ™™ 
title: “2822 年 图 书馆 春季 学 期 日 常 培训 |" 
url: "http://www.library.fudan.edu.cn/2022/0225/c29a173610/page.htm" 
visitCount: @ 
wapUrl: “http://www. library. fudan.edu.cn/2022/0225/c29a173610/page. htm" 
*1: {id: 173947, title: “图 书馆 恢复 预约 借 书 服 务 "，mircImgPath: "", visitCount: 421, 
* 2: {id: 173946, title: "新 一 轮 准 封闭 管理 阶段 图 书馆 空间 服务 规定 "，mircImgPath: “", vis 


图 11 请求 返 回 数据 


Fig. 11 Return data 


在 参数 中 往往 会 含有 加 载 更 多 条 数 或 不 同 页 数 范围 数据 的 参数 , 可 以 通过 观察 展示 不 同 页 
码 范 围 时 发 送 请 求 参数 的 不 同 加 以 确定 和 利用 。 例 如 复旦 大 学 图 书馆 新 闻 通 知 列表 页 ， 展 示 
第 一 页 时 ， 参 数 pageIndex 是 1， 第 二 页 时 pageIndex 是 2， 以 此 类 推 ， 即 可 以 使 用 循环 变量 
的 方式 请 求 到 所 有 的 数据 接口 。 对 每 个 接口 的 返回 进行 观察 ， 可 以 发 现 ,“ur1” 即 为 详情 页 
链接 ,“title” 为 新 闻 标 题 等 ， 可 以 轻松 的 使 用 JSON 将 元 数据 解析 并 保存 下 来 。 


O 后 续 可 以 直接 进行 使 用 。 


CS 
{= 
; 


3 内容 关键 词 提 取 与 词 云 展示 
3.1 内 容 关 键 词 提取 

除了 将 资讯 动态 信息 进行 汇总 整合 之 外 ， 对 信息 内 容 的 提取 和 展示 更 有 利于 工作 的 开展 。 
对 于 中 文 文本 ， 由 于 不 像 英 文 文本 ， 天 然 具 有 空格 分 隔 。 在 做 信息 提取 之 前 首先 要 先进 行 分 
词 工作 。Jieba 库 是 一 款 知名 度 高 且 效 果 较 好 的 中 文 分 词 工具 , 并 提供 了 两 种 关键 词 提 取 模 
式 ， 分 别 是 TF-IDF 模式 和 Text Rank 模式 。TF-IDF 的 核心 思想 是 : 如 果 在 一 个 文档 中 一 个 词 
语 能 够 多 次 出 现 ， 且 在 所 有 文档 中 这 个 词语 出 现 的 次 数 很 少 ， 那 么 TF-IDF 的 权重 就 很 高 。 
Text Rank 的 核心 思想 是 : 若 某 词汇 出 现在 很 多 词汇 之 后 ， 则 该 词汇 较为 重要 ，Text Rank 值 
相对 较 高 ;Text Rank 值 高 的 词汇 后 面 接着 的 一 个 词汇 的 Text Rank 值 也 会 相应 提高 。 

TF-IDF 没有 考虑 到 低频 但 重要 的 词语 ， 并 且 忽 略 了 词汇 间 以 及 词汇 与 主题 间 的 关系 ， 在 
短文 本 关键 词 抽 取 领 域 效 果 不 佳 ”"。 以 某 高 校 图 书馆 2022 年 6 月 的 一 篇 通知 公告 《2022 年 6 
月 毕业 小 叮 嘛 》(https://1ib. tsinghua. edu. cn/info/1073/5722. htm) "Ail, TF-IDF 算法 
得 出 的 tops 关键 词 为 “010、 总 服务 台 、 图 书 , 、 毕 业 生 、 邮 箱 ” Text Rank 算法 得 出 的 top5 


S 关键 词 为 :“ 图 书 、 毕 业 生 、 读 者 、 总 服务 台 、 相 关 ” 经 过 多 篇 文档 的 关键 词 提取 结果 对 比 ， 
，Jieba-Text Rank 模式 提取 关键 词 结果 更 符合 用 户 的 语义 习惯 。 


在 资讯 动态 内 容 抓 取 的 过 程 中 , 直接 集成 并 调用 Jieba 库 , 并 将 提取 后 的 关键 词 保存 下 来 ， 


来 源 标题 内 容 标签 
浙大 图 书馆 关于 2022 年 暑期 开放 时 间 的 通知 服务 ,开放 ,分 馆 , 读 者 , 防 控 ------ 快 速 阅读 
清华 Abi ahs KA 

中 科大 图 书馆 课题 组 服务 行 一 一 合肥 微 尺度 物质 科学 国家 研究 中 心 分 子 与 

南京 大 学 【新 闻 】" 葡 照 馆 坛 讲 座 之 二 古籍 特 藏 中 的 南大 往事 快速 阅读 
同济 【Lib. 致 理 】 专 利 检索 的 利器 一 一 国际 专利 分 类 (IPC) 分 类 ,专利 ,处 理 ,分 类 号 ,国际 ------ 快 速 阅读 
同济 [RE ESS) ANE: 书法 一 一 书法 家 张波 带 您 学 书法 ，… BER BA bs Bi 楷书 ------ 快 速 阅读 
同济 闻 学 展 堂 | FRAT: AmA (EAE) 绘画 ,文化 , 画 f ,起 孟 类 - 一 -快速 阅读 
浙大 书卷 多 情 位 故人 一 一 记 浙 江 大 学 图 书馆 藏 写本 文献 珍品 夺 开 幕 式 车 "…. 写本 ,文献 ,研究 ,中 心 数 字 化 ------ 快 速 阅读 


”图 12 关键 词 展示 


Fig. 12 Keywords Display 


3.2 词 云 展示 

除了 对 单 篇 文档 进行 关键 词 提 取 和 展示 之 外 , 对 某 个 时 间 段 范围 内 的 多 篇 文档 进行 分 析 是 
另外 一 种 工作 模式 。 但 如 果 对 某 个 时 间 段 内 的 所 有 文档 不 加 区 分 的 放 在 一 起 进行 信息 提取 ， 
则 往往 由 于 主题 不 同 而 导致 抓 不 到 重点 。 所 以 采取 的 做 法 是 首先 从 该 段 时 间 范 围 内 的 文档 提 
取 关 键 词 ， 然 后 针对 某 一 个 关键 词 相关 的 文档 再 进行 词 云 展 示 。 

WordCloud 是 Python 的 第 三 方 库 ， 根 据 文 本 中 词语 的 出 现 频率 等 参数 ， 将 枯燥 呆板 的 词 
语 泻 染 成 大 小 、 颜 色 不 一 的 可 视 化 词 云 艺术 效果 。 创 建 词 云 主要 通过 三 步骤 完成 : 首先 实例 
化 词 云 对 象 Word Cloud (0) ， 并 设 定 基 本 参数 信息 ; 接着 根据 jieba 分 词 并 将 处 理 后 的 词 频 生 
成 词 云 generate from frequencies () ; 最 后 将 词 云 保 存 为 图 片 to file()"”。 以 2020 年 
疫情 初期 某 段 时 间 的 资讯 动态 为 例 ， 得 到 词 云 效果 如 图 13。 比 较 直 观 的 展示 出 疫情 、 防 控 、 
线 上 数据 库 、 远 程 访问 等 信息 。 
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图 13 词 云 展示 
Fig. 13 Wordcloud Display 
4 运行 效果 
截至 当前 ， 采 集 到 资讯 动态 12657 条 。 其 中 上 交大 最 多 为 2475 条 数据 。 最 早 采集 到 了 清 
华 大 学 2000 年 6 月 的 资讯 动态 。 
资讯 动态 数量 
TFF Eg 
图 14 采集 结果 
Fig. 14 Collection Result 
5 ”总结 和 展望 


CO 高 校 图 书馆 乃至 国内 高 校 图 书馆 的 资讯 动态 在 各 自 的 门户 网 站 都 提供 了 规范 化 的 展示 
结构 ， ee ni 
信息 的 来 源 与 整合 ， 并 加 以 利用 ， 以 辅助 日 常 工作 。 从 更 深入 的 角度 来 看 ， 更 优化 的 信息 提 
取 与 主动 的 热点 信息 推送 是 更 进一步 研究 的 方向 ， 从 更 广泛 的 角度 来 看 ， 更 大 范围 的 信息 获 
取 与 整合 ， 例 如 扩展 信息 类 型 、 扩 大 信息 疏 取 目标 高 校 范围 尤其 是 国外 高 校 图 书馆 等 ， 也 是 
进一步 研究 的 方向 。 
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Tracking the information of university libraries--C9 universities as an example 
Zhang Jigian', Du Xiaofeng'!, WeiChengfu', Wang Haoxian', Zhang Yuanjun! 
1. Library, Peking University, Beijing 100871, China 


Abstract: Due to the limitation of the information exchange method and frequency between 


universities, and the influence of the epidemic, university libraries cannot fully and quickly learn the 
news and resource dynamics among peers (hereinafter referred to as information dynamics). analyzed 
and counted the page structure of library homepages of domestic C9 universities, design a 
hot-plugging web crawler to capture the content of information dynamic related pages, while avoiding 
the pressure and impact on each other's network equipment and traffic, and extracted information 
from the captured text content, took out keywords and drew word cloud map. Based on the Zendo 
open source framework, build an information query and display platform for library leaders and 
interview librarians to focus on peer information dynamics. And this application scenario is extended 
to more universities at home and abroad to summarize and prospect. 


Key words: library portal; news; resources; crawlers; plug-in; keyword extraction 


